杨蔚:Sora出世,人工智能大赛发令枪响
Sora的横空出世让人们感受到了人工智能的迫近。在这场竞赛中,谷歌、Meta、OpenAI、微软以及投资人之间燃起了无限的爱恨情仇。中国在这场大赛中的机会又在哪里?
一名身着时尚黑皮衣、内搭亮丽红裙的女子,戴着黑色墨镜,手拿黑色链条包行走在雨后夜晚的东京街头,地面的积水映出她的身影和绚丽的霓虹灯。短短60秒的视频刷爆朋友圈,这不是某位时尚博主的走红,而是AI再次带给人类的“震撼”。
Sora的横空出世让人们感受到了人工智能的迫近。在这场竞赛中,谷歌、Meta、OpenAI、微软以及投资人之间燃起了无限的爱恨情仇。中国在这场大赛中的机会又在哪里?
01
开源还是闭源
从趋势来看,未来人工智能有可能形成开源和闭源两个体系。LLaMA是Android的开源模式,OpenAI是苹果的iOS模式。
正当Sora再一次将OpenAI推上热搜之时,特斯拉创始人埃隆·马斯克却在3月1日向由微软支持的OpenAI及其首席执行官山姆·奥特曼提起诉讼。
在向旧金山法院提起的诉讼中,马斯克的律师说,2015年,奥特曼和OpenAI联合创始人格雷格·布罗克曼接触了这位科技亿万富翁,同意成立一个非营利性实验室,为“造福人类”开发通用人工智能。2018年,马斯克从OpenAI董事会辞职。2020年,马斯克曾表示,人工智能“可能比核武器更危险”。
起诉书写道:“直到今天,OpenAI,Inc.,的网站仍继续声称,其章程是为了确保AGI(通用人工智能)造福全人类。然而,实际上,OpenAI,Inc.已经转变为世界上最大的科技公司微软事实上的闭源子公司。”
在马斯克和OpenAI的争议中,先撇开价值观不谈,一个关键问题是OpenAI在开源与闭源上的选择。一直以来,开源是IT界的信仰。但在人工智能目前阶段的竞争中,开源和闭源关乎着企业的竞争位序。
创业公司Stability AI凭借开源AI大模型Stable Diffusion而声名鹊起。Stable Diffusion(以下简称SD)能根据用户的文字提示创作图片作品。Stability AI坚信,开源精神为创建和获取尖端研究提供了明确的路径,它支持的研究社区目前正在开发突破性的人工智能模型,应用于图像、语言、代码、音频、视频、3D内容、设计、生物技术和其他科学研究。开源模型吸引了谷歌、亚马逊和Adobe等科技巨头,它们认为,相对于不开源的AI模型,开源是一种更好的选择。
2022年11月,Stability AI发布SD 2.0。就在新版大模型发布一个月后,苹果应用商店排名前十的应用程序中有四款由SD提供支持。然而,Stability AI并未从开源中盈利,反倒让具有产品化能力的Midjourney大获成功。Midjourney起初只有11位员工,基于SD模型,Midjourney对大量优质数据进行训练,微调模型,并以付费订阅的模式获利,3种套餐分别为10/30/60美元/月。随着用户数据的增加,Midjourney形成了数据飞轮,用户体验不断提升。公司在没有接受任何投资的情况下,据外界估计,公司2023年收入超过2亿美元。2022年9月,由Midjourney生成的艺术作品《太空歌剧院》在美国科罗拉多州博览会艺术比赛上,获得了“数字艺术/数字修饰照片”一等奖。而提供大模型的Stability AI,由于一直未能盈利,于2023年12月宣布不再完全开源,以每月付费的形式向企业用户推出其最新的人工智能模型。
2018年成立的Runway公司利用计算机图形和机器学习来降低内容创作的壁垒。Runway 推出的Gen-2是文生视频生成工具,可以自动修剪视频内容。Runway最初是开源模型SD的创造者之一。在SD发表之前,来自德国的学者和Runway共同推出一个名为Latent Diffusion的开源图像生成器。Stability AI的成果其实是基于Latent Diffusion。Runway此后改变了思路。从开源走向闭源,为来自影视行业的客户提供支持,参与了《黑寡妇》等电影的特效项目,形成了自己的营利体系。
人工智能领域的领跑者谷歌最早于2017年推出Transformer架构,如今Bert、T5、ChatGPT、LLaMa、Sora大模型都是基于这一架构。Transformer改进了深度学习处理长文本序列的能力,为大型语言模型的发展奠定了基础。OpenAI的开发者正是基于谷歌发表的这篇论文开始了探索。
2022年6月,谷歌高级工程师卢克·塞诺(Luke Sernau)写的一份备忘录遭泄露,备忘录在大声疾呼,开源软件正在威胁大型科技公司对人工智能的掌控。那些谷歌Bard或OpenAI的ChatGPT替代品,正在让开发人员研究、构建和修改,这些版本比大公司开发的最好的人工智能模型更小、更便宜,在性能上(几乎)匹配,并且这些新版本可以免费共享。然而,2024年2月,谷歌罕见地改变了此前坚持的大模型闭源策略,推出了“开源”大模型Gemma。有报道认为,Gemma代表谷歌大模型策略的转变——兼顾开源和闭源,开源主攻性能最强大的小规模模型,对手是Meta和有着“全法国希望”之称的Mistral AI;闭源则主攻规模大且效果最好的大模型OpenAI。
回到OpenAI的道路选择。马斯克投资OpenAI的初衷是为了遏制通用人工智能对人类可能构成的危险,特别是当谷歌收购DeepMind团队,并且一路引领AGI竞赛时。奥特曼也有同样的担忧。
OpenAI初始“烧”了很多钱,推出过Gym、Universe等技术产品,但在谷歌的AlphaGo面前都黯然失色。面对一次次失利,马斯克提出希望全权管理,该提议未被接受,于是他退出OpenAI,其投资总额不到4500万美元。失去资金来源的OpenAI在2019年成立了一个可营利组织来募资,设定了获利的天花板,即任何投资这个组织的人,最高获利只能为100倍,超过100倍后的利润归OpenAI所有。
自2019年起,微软与OpenAI展开合作。OpenAI每年在微软云服务上进行模型训练,成为微软投资的重要组成部分。GPT-1于2018年推出,直至2023年3月OpenAI推出GPT-4时才一鸣惊人。微软随后将ChatGPT技术用于旗下的各项产品。自宣布使用OpenAI相关人工智能产品后,微软股价从2023年1月6日的每股243美元一路上涨,截至当年12月29日,收盘价为每股375美元,股价上涨54.3%。同年,道指上涨13.7%,标普500指数上涨24.2%,纳斯达克综合指数上涨43.4%。2024年,OpenAI继续推出文生视频大模型Sora,再次轰动业界,微软股价进一步攀升至每股400美元上方。OpenAI的GPT系列模型以及文生视频模型Sora,终于在一次次的快速迭代中反超了谷歌。
面对OpenAI给微软带来的泼天富贵和技术优势,投资打了水漂的马斯克提起了诉讼,他认为OpenAI是一家“为了获得最大利润的超级闭源的人工智能”公司。目前的事实是,OpenAI几乎完全放弃了开源,并且成为最不开源的AI公司之一。
中欧国际工商学院管理学副教授杨蔚曾就“企业的开源创新与竞争战略”做过研究论文。她指出,软件业在20世纪60年代初期普遍采用开源策略,直到1985年,IBM将算法专利化,并且得到美国法院的支持后,才有了与开源软件相左的专有软件(Proprietary?Software)。但到2000年左右,业界开始质疑开源是否仍有发展空间,开源后如何赢利?
杨蔚指出,开源有两个重要价值:一是确立行业标准,二是实现技术扩散。
“当ChatGPT在两个月内的下载量达到1亿用户时,谷歌必须采取开源措施。开源是对竞争者的釜底抽薪。”杨蔚说。事实是,谷歌还在就是否开源大模型迟疑之时,Meta抢到了先机,于2023年2月官宣LLaMA开源,而谷歌直到2024年2月才开源Gemma。“我认为谷歌现在开源已经晚了,开源社区的第一信条就是‘不要重复造轮子’。”在开源社区中,第一个开源软件哪怕性能不好,程序员们也会不计回报地加以优化,但如果再出现一个类似的软件,他们将兴味索然。所以,尽管LLaMA最初的性能只有ChatGPT的60%,但经过开源社区的改造,三周后性能就达到了ChatGPT的90%以上。开源的另一个附加好处是降低了开发成本。
“Meta在人工智能上的实力很强,2018年之前,学术界发表的文章中,60%使用谷歌的Tensor Flow,但2019年之后,使用Meta开发的机器学习框架开始占据主流,学界使用工具是重要的市场先导指标。”杨蔚说。“从趋势来看,未来人工智能有可能形成开源和闭源两个体系。LLaMA是Android的开源模式,OpenAI是苹果的iOS模式。”
02
谷歌为什么掉队了?
谷歌目前的被动局面,不完全是由技术问题引起的。庞大的科研人才规模更容易导致研发人员在技术路径和AI道德层面产生意见分歧甚至冲突,对创新的推进产生掣肘。
如今,ChatGPT的性能优于谷歌的BERT,Mata又早于谷歌开源,先行者谷歌在技术和商业策略上腹背受敌。对此,中国电信研究院大数据与人工智能研究所所长杨明川认为,谷歌的相对迟缓主要有两个原因。
一是专注度不够。所有大模型技术的终点都是通用人工智能,谷歌应该有多种技术路线同步进行,主要的技术路径可能类似于AlphaGo的强化学习,但这个路线需要叠加大模型技术来实现。杨明川说:“我认为谷歌和Meta都可能实现通用人工智能,只是看谁更快。OpenAI的成功是因为专注,或许是因为它没有更多可选的技术路线。从另一个角度来看,OpenAI拥有技术信仰,创始人对大模型底层技术的认识非常坚定,我认为OpenAI的深度与此有关。”
二是大模型研发体现了“木桶效应”。“Sora的成功是基于出色的工程化能力,把每块足够强、足够长的‘木板’拼接成为一个整体。”杨明川说。Sora整合了多项技术,视频数据所用的图片描述生成采用了在DALL-E 3中引入的重新标注技术,通过两阶段精调的方式生成图像详尽的描述,再使用GPT-4进行丰富,且合成数据很可能使用了UE5渲染得到的高质量视频素材。“Sora虽然采用的每一项技术都是业界顶尖的,但其实端到端的优化难度是极大的,它集中了文本大模型、多模态大模型在内的多个领域的技术,是个集大成者。技术人员视野足够广、技术宽度足够宽,才能将多个技术组合成一个整体,解决了之前不敢想的问题。”反之,竞争者如果在某些技术能力上有短板,将很难推出同款竞品。
杨蔚认为,谷歌目前的被动局面不完全是由技术问题引起的。她认为人工智能的复杂性是多面的,不仅仅是技术,更存在于道德伦理方面。而这种多维的复杂性和不确定性对于谷歌这样的技术巨头挑战是更大的。庞大的科研人才规模更容易导致研发人员在技术路径和AI道德层面产生意见分歧甚至冲突,对创新的推进产生掣肘。
谷歌能否扭转局面,实现对AI技术及应用的强整合,考验的是CEO的领导力。杨蔚认为,AI技术的发展与管理学发展同源,“领导者是否具备魄力、实力和手段,整合现有企业资源寻找新出路,我认为这是关键。”杨蔚说。
03
投资者的技术机会
人工智能是多领域人才的组合,人工智能技术在开发时,需要引入物理人才、仿真技术人才等。
·时空压缩
香港大学计算机系教授徐克在一次公开讲座中提到,Sora的技术路线明确指出需要同时进行时间和空间的压缩,这是技术重点,而目前投资圈不少人只关注Diffusion和Transformer路线,而忽略了时空压缩。如果无法完成压缩,将很难做好文生视频。
空间压缩中,文生图的功能先通过编码器(encoder),将高分辨率的图像转化为低分辨率的图像,然后通过解码器(decoder),将低分辨率的图像还原,完成空间压缩后,软件处理的Token从1k×2k降为256象素×256象素。
在时间压缩中,假设视频时长20秒,每秒25帧,图像分辨率为1k×2k,处理的Token量为1k×2k×25帧/秒×20秒,所以必须对时间维度进行压缩。徐克认为,“Pika、Runway之所以无法生成长时间的视频,是因为只做了空间上的压缩,没有做时间上的压缩。”
·通向物理世界的路径
OpenAI发布的训练Sora的动机是:“我们正在教AI如何理解和模拟物理世界中的运动,目标是训练出能够帮助人们解决需要与现实世界进行交互的问题的模型。”“我们的研究结果表明,扩展视频生成模型是建立物理世界通用模拟器的一条可行之路。”杨明川说。
杨明川认为,OpenAI沿用的是规模法则的路径,Sora依靠大数据的概率模型来模拟物理世界。因为没有引入物理约束,物理模拟引擎只是在模拟一个真实的世界,所以它无法达到最优物理约束方案,Sora出现一些有违物理规律的视频图像也就不足为奇了。比如物体相互穿过、变形,如篮球穿过篮筐的侧面,狗在走路时相互穿过。Meta一直强调的是世界模型,这是遵循物理定律约束的大模型。“目前人工智能正处于模拟阶段,接下来是仿真阶段,之后才是完全遵循物理定律的阶段,即世界模型的阶段。每个阶段都需要有核心技术支撑。几大公司可能会有几条开发路径,是继续遵循规模法则,进一步增加训练数据和训练量,还是引入先验物理定律?哪条路径能走得更远目前还不确定。但有一点可以肯定,人工智能技术在开发时,需要引入物理人才、仿真技术人才等,人工智能是多领域人才的组合。”
·芯片的机遇
2024年3月19日,英伟达在GPU技术大会(GTC)上宣布推出新一代AI芯片架构Blackwell。第一款Blackwell芯片名为GB200,被外界称作“全球最强”的AI芯片。以GB200 NVL机架规模系统为例,配备了36颗Grace Blackwell超级芯片,与芯片数量相同的H100 Tensor Core图形处理器相比,推理性能最多可提高30倍,但功耗和成本却降至上一代的1/25,亚马逊网络服务、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉等公司将采用这一全新芯片架构。
杨蔚说,英伟达芯片算力能力的迅速增长为未来大模型的训练提供一定的可能性。但对中国不利的一面是,由于GPU的性能已经很好了,用户更换其他芯片的可能性很小,目前中国能买到的是H20芯片,算力只有H200的几分之一。
美国科学促进会会士(AAAS Fellow)姜涛3月发布一则帖子,其中提到,云端LLM是大厂的战场,普通人玩不起,但是EDGE端LLM有望快速发展,会带动终端推理芯片发展。此外,英伟达也将面临挑战,ASIC推理芯片会发展起来。
杨蔚认同姜涛的观点,推理芯片的技术路线是可靠的。“一旦某个公司在算力上真的绕开了英伟达,那将会是全新的机会。”
04
AI时代的商业逻辑
在发展方向上,中国企业更务实,在应用上的行动力更快,也比美国创业企业更有应用场景,我称之为“常用创新”。
徐克教授在公开讲座中提到,AI 1.0时代的创业与2.0时代是不同的。
AI 1.0时代类似于项目制,针对不同的项目需求,用特有数据专门定制AI算法,比如人脸识别的数据采集。由于大量工作开源,导致算法门槛变低,很难形成技术壁垒,反而使得特有数据和工程化能力变得更为重要。
AI 2.0时代将出现AI平台型公司(比如OpenAI)。基础模型(Foundation Model)具有更好的泛化能力,通过微调基础模型,以较低的成本训练,就能适应不同领域的任务。
徐克认为,这个时代的团队不需要太多人,但是一定需要少量生成式AI(Generative AI)领域的顶尖科学家。小而精的平台型公司将能够保证公司在未来赢利。这些公司真正离实际应用接近的时候大概率不再开源。由于算力要求较大,只有少数团队能够做文生视频方向。一旦形成技术壁垒,在数据的不断迭代中,未来的竞争者将很难“弯道超车”。
2.0时代的结果是“模型即平台”“模型即产品”。用户愿意支付更高的价格去使用优秀模型。
徐克提到,AI 2.0时代的技术会首先用于容错率较高的领域,比如内容创作、娱乐、游戏、3D甚至元宇宙,即提升白领的生产效率,而不是像AI 1.0时代那样取代蓝领的工作。
刚从硅谷考察回来的工信部工业文化发展中心AI应用工作组执行组长,行行AI董事长李明顺很看好应用端中国企业的机会,甚至在一些AI+智能硬件/电商/医疗/工业的重要场景中有可能出现超出美国的一些企业。“在发展方向上,中国企业更务实,在应用上的行动力更快,也比美国创业企业更有应用场景,我称之为‘常用创新’。这些机会是美国创业者短期内不能企及的。硅谷大量的美国创业企业主要在大模型周边创业。”
比如美国“房地产+AI”是一个3万亿美元的市场,建筑行业从设计到智能家居,到电商都是AI赋能的方向。在这一领域里,马斯克投资主营拼装式建筑的Boxable公司,利用AI技术改善现有行业。“中国过去这些年在装配式建筑上取得不错的进展,在民宿、乡间别墅上有很多应用场景。中国供应链在成本上比美国有优势,中国企业要结合跨境电商和AI应用,让装配技术更加智能化才能抓住这3万亿美元的市场机会。”李明顺说。
虽然李明顺看到中国在大模型领域采用的是跟随策略,但国家对人工智能的重视和投入,也在保证中美两国之间不会出现太大的代际差。虽然目前在数据端,中美之间有差别,在算力上美国更有优势,但是随着大模型的推进,开源生态的增多,这些差距都不会太大。
但就人工智能底层的数据质量进行对比,李明顺认为美国的数据更为统一,而中国的信息孤岛较多。
李明顺认为,自Sora诞生后,人们对AI大模型的整体格局和发展路径有了更加清楚的认识。“今天的AI大模型是基于‘暴力’竞争,即用大规模的算力、大规模的资金、大规模的数据以及大平台的能力去竞争。”中美两国对此的认知越来越强烈。美国万亿美元以上的公司几乎都在全面布局人工智能,苹果公司为此甚至放弃了电动车业务。阿里巴巴除了自己开发“通义千问”大模型,也通过投资一系列领先的AI公司去参与竞争。
人工智能的国家间竞争,其实争夺的是设定标准、设定游戏规则的权力。李明顺说:“鉴于现在的发展形势,东西方可能会出现两套平行体系。目前在汽车、通讯、供应链等领域,已经出现了两个体系的迹象。在AI芯片和大模型领域,东西方两个独立体系也在逐渐形成,所以中国企业只有接受这个大环境,扛过这个周期,中国企业应该结合自己的优势去构建自己的标准化体系。”
人工智能如何出海,也是这一领域的创业者关注的话题。既有的技术体系、供应链需要找到合适的市场。李明顺认为,目前东南亚、中东、非洲是中国企业既有的出海阵地,南美较为中立,中国与澳大利亚的关系出现了一定的缓和迹象,日本与中国政冷经热,这些地方都是中国人工智能企业出海的市场。“我认为市场经济是一个非常聪明的配置资源的方式,只要有需求的地方,性价比高的产品和技术就会流过去。为此,中国企业要从‘中国制造’转变为‘中国人制造’(Made by Chinese),让中国企业以世界公民和本地公民的角度去思考。当企业实现本土化,这才是真正的全球化,而不仅仅是‘出海’。”李明顺如是说。
来源|《商学院》杂志